热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

据点|流形_第一节:半监督聚类算法概述

篇首语:本文由编程笔记#小编为大家整理,主要介绍了第一节:半监督聚类算法概述相关的知识,希望对你有一定的参考价值。文章目录

篇首语:本文由编程笔记#小编为大家整理,主要介绍了第一节:半监督聚类算法概述相关的知识,希望对你有一定的参考价值。



文章目录


  • 一:半监督聚类
  • 二:约束信息
    • (1)标签约束
    • (2)成对约束
      • A:概述
      • B:举例




一:半监督聚类

半监督聚类(semi-supervised clustering):传统的聚类学习任务是一种无监督学习任务,也即假设所有样本数据的簇标签未知。但是在某些学习任务中,用户具有某些领域的背景知识,也即约束信息。所以人们希望将这些领域知识应用到聚类任务中,所以这类学习任务称之为半监督聚类。半监督聚类可以分为:


  • 广义的半监督聚类:在实际聚类任务中,相对于数据本身而言,数据的约束信息是更难以获取的,用户只能获取较为明显数据样本的标签,或只能得到施加在样本点之间的约束,所以这些信息称之为广义的半监督聚类
  • 狭义的半监督聚类:它只限于针对样本点的约束信息

所以半监督聚类主要研究:如何利用少量的约束信息来得到更加准确的聚类结果,同时不仅利用约束样本提供的信息,而且考虑所有无约束样本集所隐含的结构信息


二:约束信息

约束信息:约束信息通常被认为是一种背景知识或领域知识,是分析数据时已知的信息。使用约束信息时,通常要对约束信息和无约束样本的关系做出一些假设,常见的有如下三种假设


  • 簇性假设:是指数据倾向于形成分离的簇,并且同一簇中的数据有相同的簇标签
  • 局部性假设:是指约束点与其近邻更有可能属于同一类别
  • 流形假设:是指同一簇的数据位于一个低纬度流形上,这样聚类时就可以利用流形上的距离测度

根据约束存在方式的不同,约束信息分为如下两种


  • 标签约束
  • 成对约束

(1)标签约束

标签约束:在半监督聚类中,虽然整个学习任务是无监督的,但是有一部分数据的标签是可知的。标签约束就是指这种数据的已知标签,它可以看成是一种子集

利用标签约束的半监督聚类算法定义为:对于给定数据集




D



D


D
,标签约束集




L



L


L
,半监督聚类算法利用




L



L


L
中的信息将




D



D


D
中数据分配到对应的簇中


(2)成对约束


A:概述

成对约束:是一种指明两个实例的相对关系的约束信息;成对约束由以下两个集合构成


  • 必连约束集(must-link set, ML):对于两个数据点





    x


    i




    x_i


    xi






    x


    j




    x_j


    xj
    ,如果




    (



    x


    i



    ,



    x


    j



    )





    M


    L



    (x_i,x_j) \\in ML


    (xi,xj)ML
    ,则数据点





    x


    i




    x_i


    xi
    和数据点





    x


    j




    x_j


    xj
    在实际中属于同一个簇
    ,此时称




    (



    x


    i



    ,



    x


    j



    )



    (x_i,x_j)


    (xi,xj)
    是一个必连约束(must-link)
  • 勿连约束集(cannot-link set, CL):对于两个数据点





    x


    i




    x_i


    xi






    x


    j




    x_j


    xj
    ,如果




    (



    x


    i



    ,



    x


    j



    )





    C


    L



    (x_i,x_j) \\in CL


    (xi,xj)CL
    ,则数据点





    x


    i




    x_i


    xi
    和数据点





    x


    j




    x_j


    xj
    在实际中不属于同一个簇
    ,此时称




    (



    x


    i



    ,



    x


    j



    )



    (x_i,x_j)


    (xi,xj)
    是一个勿连约束(cannot-link)

利用成对约束的半监督聚类算法定义为:对于给定数据集




D



D


D
,必连约束集




M


L



ML


ML
,勿连约束集




C


L



CL


CL
,半监督算法的目标是通过最小化聚类的目标函数,利用




M


L



ML


ML





C


L



CL


CL
中的信息将




D



D


D
中数据分配到对应簇中


B:举例

下图给出了一个二维空间中数据的成对约束示例,包含两个簇,分别用圆点和三角形表示


  • 必连约束集




    M


    L


    =





    (



    x


    3



    ,



    x


    4



    )


    ,


    (



    x


    7



    ,



    x


    8



    )






    ML=\\(x_3, x_4),(x_7,x_8)\\


    ML=(x3,x4),(x7,x8)
    使用实线连接
  • 勿连约束集




    C


    L


    =





    (



    x


    1



    ,



    x


    2



    )


    ,


    (



    x


    5



    ,



    x


    6



    )






    CL=\\(x_1, x_2),(x_5,x_6)\\


    CL=(x1,x2),(x5,x6)
    使用虚线连接


  • 对于无监督聚类,不考虑以上的约束信息,由于




    d


    (



    x


    5



    ,



    x


    6



    )



    d(x_5,x_6)


    d(x5,x6)
    <




    d


    (



    x


    3



    ,



    x


    4



    )



    d(x_3,x_4)


    d(x3,x4)
    &#xff0c;所以当




    k


    &#61;


    2



    k&#61;2


    k&#61;2
    时&#xff0c;传统的




    K





    M


    e


    a


    n


    s



    K-Means


    KMeans
    方法可能会把




    (



    x


    4



    ,



    x


    5



    ,



    x


    6



    ,



    x


    7



    ,



    x


    8



    )



    (x_4,x_5,x_6,x_7,x_8)


    (x4,x5,x6,x7,x8)
    分到同一个簇中
  • 对于半监督聚类&#xff0c;当拥有以上的约束信息后&#xff0c;一个有效利用成对约束的半监督聚类算法会将




    (



    x


    1



    ,



    x


    3



    ,



    x


    4



    ,



    x


    5



    )



    (x_1,x_3,x_4,x_5)


    (x1,x3,x4,x5)
    分到同一个簇中


在很多实际问题中&#xff08;例如图像检索、语音识别、GPS导航等等&#xff09;&#xff0c;往往难以获取数据的簇标签&#xff0c;但是用户可以指定两个实例是否属于同一簇。在给定标签约束的情况下&#xff0c;依然可以生成对应的必连约束和勿连约束


  • 令簇标签相同的样本两两之间生成必连约束
  • 令簇标签不同的样本两两之间生成勿连约束

推荐阅读
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 测绘程序设计Excel度分秒转换模板附代码超实用版
    本文介绍了测绘程序设计Excel度分秒转换模板附代码超实用版的相关知识,包括准备工作、编写表达式和注意事项。在实际工作中,将GPS实测的经纬度度转换为度分秒是常见需求,本文提供了在Excel中快速进行转换的方法,以提高工作效率。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了通过mysql命令查看mysql的安装路径的方法,提供了相应的sql语句,并希望对读者有参考价值。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • 达人评测 酷睿i5 12450h和锐龙r7 5800h选哪个好 i512450h和r75800h对比
    本文介绍了达人评测酷睿i5 12450h和锐龙r7 5800h选哪个好的相关知识,包括两者的基本配置和重要考虑点。希望对你在选择时提供一定的参考价值。 ... [详细]
author-avatar
G路过的彩虹
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有